智能论文笔记

Orientation-Shared Convolution Representation for CT Metal Artifact Learning

Hong Wang , Qi Xie , Yuexiang Li , Yawen Huang , Deyu Meng , Yefeng Zheng

分类：计算机视觉

2022-12-26

During X-ray computed tomography (CT) scanning, metallic implants carrying with patients often lead to adverse artifacts in the captured CT images and then impair the clinical treatment. Against this metal artifact reduction (MAR) task, the existing deep-learning-based methods have gained promising reconstruction performance. Nevertheless, there is still some room for further improvement of MAR performance and generalization ability, since some important prior knowledge underlying this specific task has not been fully exploited. Hereby, in this paper, we carefully analyze the characteristics of metal artifacts and propose an orientation-shared convolution representation strategy to adapt the physical prior structures of artifacts, i.e., rotationally symmetrical streaking patterns. The proposed method rationally adopts Fourier-series-expansion-based filter parametrization in artifact modeling, which can better separate artifacts from anatomical tissues and boost the model generalizability. Comprehensive experiments executed on synthesized and clinical datasets show the superiority of our method in detail preservation beyond the current representative MAR methods. Code will be available at \url{https://github.com/hongwang01/OSCNet}

translated by 谷歌翻译

EBHI-Seg: A Novel Enteroscope Biopsy Histopathological Haematoxylin and Eosin Image Dataset for Image Segmentation Tasks

Liyu Shi , Xiaoyan Li , Weiming Hua , Haoyuan Chen , Jing Chen , Zizhen Fan , Minghe Gao , Yujie Jing , Guotao Lu , Deguo Ma

分类：计算机视觉

2022-12-01

Background and Purpose: Colorectal cancer is a common fatal malignancy, the fourth most common cancer in men, and the third most common cancer in women worldwide. Timely detection of cancer in its early stages is essential for treating the disease. Currently, there is a lack of datasets for histopathological image segmentation of rectal cancer, which often hampers the assessment accuracy when computer technology is used to aid in diagnosis. Methods: This present study provided a new publicly available Enteroscope Biopsy Histopathological Hematoxylin and Eosin Image Dataset for Image Segmentation Tasks (EBHI-Seg). To demonstrate the validity and extensiveness of EBHI-Seg, the experimental results for EBHI-Seg are evaluated using classical machine learning methods and deep learning methods. Results: The experimental results showed that deep learning methods had a better image segmentation performance when utilizing EBHI-Seg. The maximum accuracy of the Dice evaluation metric for the classical machine learning method is 0.948, while the Dice evaluation metric for the deep learning method is 0.965. Conclusion: This publicly available dataset contained 5,170 images of six types of tumor differentiation stages and the corresponding ground truth images. The dataset can provide researchers with new segmentation algorithms for medical diagnosis of colorectal cancer, which can be used in the clinical setting to help doctors and patients.

translated by 谷歌翻译

KXNet: A Model-Driven Deep Neural Network for Blind Super-Resolution

Jiahong Fu , Hong Wang , Qi Xie , Qian Zhao , Deyu Meng , Zongben Xu

分类：计算机视觉

2022-09-21

尽管目前基于深度学习的方法在盲目的单图像超分辨率（SISR）任务中已获得了有希望的表现，但其中大多数主要集中在启发式上构建多样化的网络体系结构，并更少强调对Blur之间的物理发电机制的明确嵌入内核和高分辨率（HR）图像。为了减轻这个问题，我们提出了一个模型驱动的深神经网络，称为blind SISR。具体而言，为了解决经典的SISR模型，我们提出了一种简单的效果迭代算法。然后，通过将所涉及的迭代步骤展开到相应的网络模块中，我们自然构建了KXNET。所提出的KXNET的主要特异性是整个学习过程与此SISR任务的固有物理机制完全合理地集成在一起。因此，学习的模糊内核具有清晰的物理模式，并且模糊内核和HR图像之间的相互迭代过程可以很好地指导KXNET沿正确的方向发展。关于合成和真实数据的广泛实验很好地证明了我们方法的卓越准确性和一般性超出了当前代表性的最先进的盲目SISR方法。代码可在：\ url {https://github.com/jiahong-fu/kxnet}中获得。

translated by 谷歌翻译

Meta-Causal Feature Learning for Out-of-Distribution Generalization

Yuqing Wang , Xiangxian Li , Zhuang Qi , Jingyu Li , Xuelong Li , Xiangxu Meng , Lei Meng

分类：计算机视觉

2022-08-22

因果推论已成为处理分布外（OOD）概括问题的强大工具，该问题旨在提取不变特征。但是，常规方法从多个数据拆分中应用因果学习者，这可能会从数据分布中产生偏见的表示学习，并且在异质源中不变特征学习中的难度。为了解决这些问题，本文介绍了平衡的元考生学习者（BMCL），其中包括平衡的任务生成模块（BTG）和元伴侣特征学习模块（MCFL）。具体而言，BTG模块学会通过一种自我学习的分区算法来生成平衡子集，该算法对示例类和上下文的比例有限制。 MCFL模块训练一个适合不同分布的元学习者。在NICO ++数据集上进行的实验验证了BMCL有效地标识了类不变的视觉区域进行分类，并可以作为改善最先进方法的性能的一般框架。

translated by 谷歌翻译

Provable Adaptivity in Adam

Bohan Wang , Yushun Zhang , Huishuai Zhang , Qi Meng , Zhi-Ming Ma , Tie-Yan Liu , Wei Chen

分类：机器学习

2022-08-21

自适应力矩估计（ADAM）优化器由于其快速收敛属性而广泛用于深度学习任务。但是，亚当的融合仍然不太了解。特别是，对亚当的现有分析不能清楚地证明亚当比SGD的优势。我们将这种理论上的尴尬归因于$ l $ -smooth的条件（即，假设梯度在全球lipschitz连续且常数$ l $）中被文献所采用，而文献经常指出，在实用的神经网络中经常失败。为了解决这一尴尬，我们分析了亚当在轻松的条件下的融合，称为$（l_0，l_1）$平滑度条件，这使梯度Lipschitz常数可以随地梯度规范而变化。 $（l_0，l_1）$严格弱于$ l $ -Smooth条件，并且已经过经验证明可以保留实用的深神经网络。在$（L_0，L_1）$平滑度条件下，我们为Adam建立了与实用的超参数的收敛性。具体而言，我们认为亚当可以适应局部平滑度条件，证明亚当的\ emph {Adpativity}是合理的。相反，在这种情况下，SGD可以任意放慢。我们的结果可能会阐明自适应梯度方法比非自适应方法的好处。

translated by 谷歌翻译

Forecasting Question Answering over Temporal Knowledge Graphs

Zifeng Ding , Ruoxia Qi , Zongyue Li , Bailan He , Jingpei Wu , Yunpu Ma , Zhao Meng , Zhen Han , Volker Tresp

分类：人工智能 | 自然语言处理 | 机器学习

2022-08-12

关于时间知识图（TKGQA）的问题回答最近发现兴趣越来越大。 TKGQA需要时间推理技术来从时间知识库中提取相关信息。唯一现有的TKGQA数据集，即cronquestions，由基于固定时间段内的事实组成，其中跨越同一时期的时间知识图（TKG）可以完全使用用于答案推断，允许使用TKGQA模型。即将根据过去事实回答问题的未来知识。但是，在现实世界的情况下，鉴于到目前为止的知识也很常见，我们希望TKGQA系统回答询问未来的问题。随着人类不断寻求未来计划，建立用于回答此类预测问题的TKGQA系统很重要。然而，这在先前的研究中仍未得到探索。在本文中，我们提出了一个新的任务：关于时间知识图的预测问题。我们还为此任务提出了一个大规模的TKGQA基准数据集，即预测。它包括三种类型的问题，即实体预测，不是和事实推理问题。对于我们数据集中的每个预测问题，QA模型只能在给定问题中注释的时间戳以进行答案推理之前访问TKG信息。我们发现，最先进的TKGQA方法在预测问题上的表现较差，并且他们无法回答不是问题和事实推理问题。为此，我们提出了一种TKGQA模型预测，该模型采用TKG预测模块进行未来推断，以回答所有三种类型的问题。实验结果表明，预测到实体预测问题的最新方法优于最近的TKGQA方法，并且在回答其他两种类型的问题方面也显示出很大的有效性。

translated by 谷歌翻译

Implicit Semantic Augmentation for Distance Metric Learning in Domain Generalization

Meng Wang , Jianlong Yuna , Qi Qian , Zhibin Wang , Hao Li

分类：机器学习

2022-08-02

域的概括（DG）旨在在一个或多个不同但相关的源域上学习一个模型，这些模型可以推广到看不见的目标域。现有的DG方法试图提示模型的概括能力的源域的多样性，同时他们可能必须引入辅助网络或达到计算成本。相反，这项工作应用了特征空间中的隐式语义增强来捕获源域的多样性。具体来说，包括距离度量学习（DML）的附加损失函数，以优化数据分布的局部几何形状。此外，采用跨熵损失的逻辑被无限增强作为DML损失的输入特征，以代替深度特征。我们还提供了理论分析，以表明逻辑可以近似于原始特征上定义的距离。此外，我们对方法背后的机制和理性进行了深入的分析，这使我们可以更好地了解为什么要代替特征的杠杆逻辑可以帮助域的概括。拟议的DML损失与隐式增强作用纳入了最近的DG方法中，即傅立叶增强联合老师框架（FACT）。同时，我们的方法也可以轻松地插入各种DG方法中。对三个基准测试（Digits-DG，PAC和办公室家庭）进行的广泛实验表明，该建议的方法能够实现最新的性能。

translated by 谷歌翻译

Pro-tuning: Unified Prompt Tuning for Vision Tasks

Xing Nie , Bolin Ni , Jianlong Chang , Gaomeng Meng , Chunlei Huo , Zhaoxiang Zhang , Shiming Xiang , Qi Tian , Chunhong Pan

分类：计算机视觉

2022-07-28

在计算机视觉中，微调是利用预训练的视觉模型来执行下游任务的事实上的方法。但是，由于采用参数效率低下的全局更新并严重依赖于高质量的下游数据，因此在实践中部署它是非常具有挑战性的。最近，基于及时的学习添加了与任务相关的提示，以使下游任务适应预训练的模型，从而极大地提高了许多自然语言下游任务的性能。在这项工作中，我们扩展了这种显着的转移能力，从迅速的愿景模型中受益，以替代微调。为此，我们提出了参数有效的及时调整（亲调整），以使冷冻视觉模型适应各种下游视觉任务。实行调整的关键是基于及时的调整，即学习特定于任务的视觉提示，以使用预先训练的模型冷冻的下游输入图像。通过仅培训一些其他参数，它可以在基于CNN和基于变压器的各种架构上工作。广泛的实验证据表明，在广泛的视觉任务和场景中，主张表现优于微调，包括图像分类（通用对象，类失衡，图像腐败，对抗性稳定性和分布范围内的概括）和密集的预测任务例如对象检测和语义分割。

translated by 谷歌翻译

PanGu-Coder: Program Synthesis with Function-Level Language Modeling

Fenia Christopoulou , Gerasimos Lampouras , Milan Gritta , Guchun Zhang , Yinpeng Guo , Zhongqi Li , Qi Zhang , Meng Xiao , Bo Shen , Lin Li

分类：机器学习 | 人工智能 | 自然语言处理

2022-07-22

我们提出了Pangu-Coder，这是一种仅预读的解码器语言模型，该模型采用pangu-alpha架构进行文本到代码生成，即给定自然语言问题描述的编程语言解决方案的合成。我们使用两阶段策略训练Pangu-Coder：第一阶段采用因果语言建模（CLM）来预先培训原始编程语言数据，而第二阶段则使用因果语言建模和掩盖语言建模（MLM）的组合培训目标，专注于文本到代码生成的下游任务，并培训松散的自然语言程序定义和代码功能。最后，我们讨论了pangu-coder-ft，该pander the是通过竞争性编程问题和代码与持续集成测试的结合进行了微调的。我们评估了pangu-coder，重点是它是否生成功能上正确的程序，并证明它在参加较小的上下文窗口和较少的数据培训的同时，它比诸如Codex之类的类似大小的模型（例如Codex）实现等效性或更好的性能。

translated by 谷歌翻译

Dynamic Contrastive Distillation for Image-Text Retrieval

Jun Rao , Liang Ding , Shuhan Qi , Meng Fang , Yang Liu , Li Shen , Dacheng Tao

分类：人工智能 | 自然语言处理 | 计算机视觉

2022-07-04

尽管配备的远景和语言预处理（VLP）在过去两年中取得了显着的进展，但它遭受了重大缺点：VLP型号不断增加的尺寸限制了其部署到现实世界的搜索场景（高潜伏期是不可接受的）。为了减轻此问题，我们提出了一种新颖的插件动态对比度蒸馏（DCD）框架，以压缩ITR任务的大型VLP模型。从技术上讲，我们面临以下两个挑战：1）由于GPU内存有限，在处理交叉模式融合功能期间优化了太多的负样本，因此很难直接应用于跨模式任务，因此很难直接应用于跨模式任务。。 2）从不同的硬样品中静态优化学生网络的效率效率低下，这些样本对蒸馏学习和学生网络优化具有不同的影响。我们试图从两点克服这些挑战。首先，为了实现多模式对比度学习并平衡培训成本和效果，我们建议使用教师网络估算学生的困难样本，使学生吸收了预培训的老师的强大知识，并掌握知识来自硬样品。其次，要从硬样品对学习动态，我们提出动态蒸馏以动态学习不同困难的样本，从更好地平衡知识和学生的自学能力的困难的角度。我们成功地将我们提出的DCD策略应用于两个最先进的视觉语言预处理模型，即vilt和仪表。关于MS-Coco和FlickR30K基准测试的广泛实验显示了我们DCD框架的有效性和效率。令人鼓舞的是，与现有的ITR型号相比，我们可以至少加快推断至少129美元的$ \ times $。

translated by 谷歌翻译